模拟逼真的传感器是自主系统数据生成的挑战,通常涉及精心手工的传感器设计,场景属性和物理建模。为了减轻这一点,我们引入了一条管道,用于对逼真的激光雷达传感器进行数据驱动的模拟。我们提出了一个模型,该模型可以在RGB图像和相应的LIDAR功能(例如Raydrop或每点强度)之间直接从真实数据集中进行映射。我们表明,我们的模型可以学会编码逼真的效果,例如透明表面上的掉落点或反射材料上的高强度回报。当应用于现成的模拟器软件提供的天真播放点云时,我们的模型通过根据场景的外观预测强度和删除点来增强数据,以匹配真实的激光雷达传感器。我们使用我们的技术来学习两个不同的LIDAR传感器的模型,并使用它们相应地改善模拟的LiDAR数据。通过车辆细分的示例任务,我们表明通过我们的技术增强模拟点云可以改善下游任务性能。
translated by 谷歌翻译
3D场景图(3DSG)是新兴的描述;统一符号,拓扑和度量场景表示。但是,典型的3DSG即使在小环境中包含数百个对象和符号。完整图上的任务计划是不切实际的。我们构建任务法,这是第一个大规模的机器人任务计划基准3DSGS。尽管大多数基准在该领域的基准努力都集中在基于愿景的计划上,但我们系统地研究了符号计划,以使计划绩效与视觉表示学习相结合。我们观察到,在现有方法中,基于经典和学习的计划者都不能在完整的3DSG上实时计划。实现实时计划需要(a)稀疏3DSG进行可拖动计划的进展,以及(b)设计更好利用3DSG层次结构的计划者。针对前一个目标,我们提出了磨砂膏,这是一种由任务条件的3DSG稀疏方法。使经典计划者能够匹配,在某些情况下可以超过最新的学习计划者。我们提出寻求后一个目标,这是一种使学习计划者能够利用3DSG结构的程序,从而减少了当前最佳方法所需的重型查询数量的数量级。我们将开放所有代码和基线,以刺激机器人任务计划,学习和3DSGS的交叉点进行进一步的研究。
translated by 谷歌翻译
In this work, we seek to build effective code-switched (CS) automatic speech recognition systems (ASR) under the zero-shot setting where no transcribed CS speech data is available for training. Previously proposed frameworks which conditionally factorize the bilingual task into its constituent monolingual parts are a promising starting point for leveraging monolingual data efficiently. However, these methods require the monolingual modules to perform language segmentation. That is, each monolingual module has to simultaneously detect CS points and transcribe speech segments of one language while ignoring those of other languages -- not a trivial task. We propose to simplify each monolingual module by allowing them to transcribe all speech segments indiscriminately with a monolingual script (i.e. transliteration). This simple modification passes the responsibility of CS point detection to subsequent bilingual modules which determine the final output by considering multiple monolingual transliterations along with external language model information. We apply this transliteration-based approach in an end-to-end differentiable neural network and demonstrate its efficacy for zero-shot CS ASR on Mandarin-English SEAME test sets.
translated by 谷歌翻译
大多数最先进的定位算法都依赖于稳健的相对姿势估计和几何验证来获得移动的对象不可知的摄像机在复杂的室内环境中姿势。但是,如果场景包含重复的结构,例如书桌,桌子,盒子或移动的人,则这种方法容易犯错。我们表明,可移动对象包含了不可忽略的本地化误差,并提出了一种新的直接方法,以预测六度自由(6DOF)更加坚固。我们为定位管道INLOC配备了实例分割网络yolact ++。动态对象的口罩用于相对姿势估计步骤和摄像头姿势建议的最终分类中。首先,我们过滤出放置在动态对象的掩模上的匹配。其次,我们跳过了与移动对象相关的区域上查询和合成图像的比较。此过程导致更强大的本地化。最后,我们描述并改善了由合成图像和查询图像之间的基于梯度的比较引起的错误,并发布了新的管道,以模拟MatterPort扫描中具有可移动对象的环境。所有代码均可在github.com/dubenma/d-inlocpp上获得。
translated by 谷歌翻译
有限的公开数据可以支持恶意软件分析技术的研究。特别是,几乎没有由杜鹃/斗篷等丰富的沙盒生成的公开可用数据集。使用动态沙箱的好处是对目标机中文件执行的逼真模拟并获得该执行日志。机器可以被恶意软件感染,因此很有可能在执行日志中捕获恶意行为,从而使研究人员可以详细研究这种行为。尽管随后对日志信息的分析在工业网络安全后端被广泛介绍,但据我们所知,仅在学术界投入了有限的努力,以使用最先进的技术提高此类日志分析功能。我们使此示例数据集可用来支持设计新的机器学习方法以进行恶意软件检测,尤其是用于自动检测通用恶意行为。该数据集是在Avast软件和捷克技术大学-AI中心(AIC)之间合作的。
translated by 谷歌翻译
如果未来的AI系统在新的情况下是可靠的安全性,那么他们将需要纳入指导它们的一般原则,以便强烈地认识到哪些结果和行为将是有害的。这样的原则可能需要得到约束力的监管制度的支持,该法规需要广泛接受的基本原则。它们还应该足够具体用于技术实施。本文从法律中汲取灵感,解释了负面的人权如何履行此类原则的作用,并为国际监管制度以及为未来的AI系统建立技术安全限制的基础。
translated by 谷歌翻译
机器学习和计算机视觉是动态增长的领域,事实证明,它们能够解决非常复杂的任务。它们也可以用于监测蜜蜂菌落和检查其健康状态,在这种情况至关重要之前,可以确定潜在的危险状态,或者更好地计划定期的蜜蜂殖民地检查,从而节省大量费用。在本文中,我们介绍了用于蜜蜂监视的最先进的计算机视觉和机器学习应用程序。我们还证明了这些方法的潜力,作为自动蜜蜂计数器算法的一个例子。该论文针对的是兽医和养育专业人士和专家,他们可能不熟悉机器学习来向他们介绍其可能性,因此,每个应用程序都通过与基本方法相关的简短理论介绍和动机来打开。我们希望本文能够激发其他科学家将机器学习技术用于蜜蜂监测中的其他应用。
translated by 谷歌翻译
用于机器人操纵的多进球政策学习具有挑战性。先前的成功使用了对象的基于状态的表示或提供了演示数据来促进学习。在本文中,通过对域的高级离散表示形式进行手工编码,我们表明,可以使用来自像素的Q学习来学习达到数十个目标的策略。代理商将学习重点放在更简单的本地政策上,这些政策是通过在抽象空间中进行计划来对其进行测序的。我们将我们的方法与标准的多目标RL基线以及在具有挑战性的块构造域上利用离散表示的其他方法进行了比较。我们发现我们的方法可以构建一百多个不同的块结构,并证明具有新物体的结构向前转移。最后,我们将所学的政策部署在真正的机器人上的模拟中。
translated by 谷歌翻译
基于2D图像的3D对象的推理由于从不同方向查看对象引起的外观差异很大,因此具有挑战性。理想情况下,我们的模型将是对物体姿势变化的不变或等效的。不幸的是,对于2D图像输入,这通常是不可能的,因为我们没有一个先验模型,即在平面外对象旋转下如何改变图像。唯一的$ \ mathrm {so}(3)$ - 当前存在的模型需要点云输入而不是2D图像。在本文中,我们提出了一种基于Icosahedral群卷积的新型模型体系结构,即通过将输入图像投影到iCosahedron上,以$ \ mathrm {so(3)} $中的理由。由于此投影,该模型大致与$ \ mathrm {so}(3)$中的旋转大致相当。我们将此模型应用于对象构成估计任务,并发现它的表现优于合理的基准。
translated by 谷歌翻译
我们研究了高度实用但相对研究的潜在域适应性问题,其中应将源模型适应包含未标记域的混合域和域 - IRRERRELERRELERRELERVANS的目标数据集。此外,受数据隐私要求以及对适应本地数据分布的嵌入式和资源约束设备的需求的激励,我们专注于设置无馈源源域的适应到源数据集,也可以返回传播。我们的解决方案是元学习网络,能够嵌入混合相关目标数据集,并使用交叉注意力动态适应目标示例。最终的框架可导致强大的ERM基线的一致改进。我们还表明,我们的框架有时甚至在域监督适应的上限上有所改善,在这种适应中,仅提供与域相关的实例进行适应。这表明人类注释的域标签可能并不总是最佳的,并提高了通过自动实例选择做得更好的可能性。
translated by 谷歌翻译